from bs4 import BeautifulSoup
import requests

"""
重拾 python
依赖包：
pip install beautifulsoup4
pip install requests
http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
"""

res = requests.get("https://www.baidu.com")
res.encoding = 'utf-8'

#打印网页原始数据
#print(res.text)

#beautifulSoup解析

#解析网页
#soup = BeautifulSoup(res.text, 'html.parser')
#print(soup)

#解析html文档
soup = BeautifulSoup(open('../test.html', encoding='utf-8'), 'html.parser')
print(soup)

"""    以下需要了解CSS选择器      """
#获得 class 为 title的 标签内容
title_tag = soup.select(".title")    #这个title_tag拿到的是数组，如果里面只有一个[0]取出
print("class为title的所有标签的数组：",title_tag)
print("拿到数组里的第一个元素：",title_tag[0])
print("拿到里面的b标签：",title_tag[0].b)

#获得 id 为myid的 标签内容
myid = soup.select("#myid")
print("获得文字：",myid[0].text)
